剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
近日,来自剑桥、NAIST 和腾讯 AI Lab 的研究者推出了一款名为 PandaGPT 的跨模态语言模型,展示了在人工智能领域的创新尝试。通过结合 ImageBind 的模态对齐能力和 Vicuna 的生成能力,同时实现了六种模态下的指令理解与跟随能力。虽然 PandaGPT 的效果尚有提升空间,但展示了跨模态 AGI 智能的发展潜力。
来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果,这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入,并自然地组合它们的语义。
论文链接: http://arxiv.org/abs/2305.16355 代码链接: https://github.com/yxuansu/PandaGPT 项目主页: https://panda-gpt.github.io/ 线上 Demo 展示: https://huggingface.co/spaces/GMFTBY/PandaGPT
在 ImageBind 的编码结果上新增一个线性投影矩阵,将 ImageBind 生成的表示转换后插入到 Vicuna 的输入序列中; 在 Vicuna 的注意力模块上添加了额外的 LoRA 权重。两者参数总数约占 Vicuna 参数的 0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在 8×A100 (40G) GPUs 上完成训练需要约 7 小时。
图像:
音频:
视频:
视频 + 音频:
图像 + 音频:
总结
作者们也总结了目前 PandaGPT 的诸多问题以及未来的发展方向。尽管 PandaGPT 在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升 PandaGPT 的性能。
PandaGPT 可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用 ASR 和 TTS 数据来进行音频 - 文本模态的模态理解和指令跟随能力。 文本以外的其他模态仅仅使用了一个 embedding 向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。 PandaGPT 目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个 AIGC 统一到同一个模型之中,即一个模型同时完成图像 & 视频生成、语音合成、文本生成等任务。 需要新的基准测试来评估多模态输入的组合能力。 PandaGPT 还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。
最后,作者们强调,PandaGPT 仅仅是一个研究原型,暂时还不足以直接应用于生产环境。
作者:苏熠暄本文来源:机器之心
Illustration by IconScout Store from IconScout
-The End-本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
>>> 添加小编微信!
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
点击右上角,把文章分享到朋友圈点击“阅读原文”按钮,查看社区原文⤵一键送你进入TechBeat快乐星球